我们呈现虚拟弹性物体(VEOS):虚拟物体,不仅看起来像他们的真实同行,而且也表现得像他们一样,即使在进行新颖的互动时也是如此。实现这一挑战:不仅必须捕获对象,包括对它们上的物理力量,然后忠实地重建和呈现,而且还发现和模拟了合理的材料参数。要创建VEOS,我们构建了一个多视图捕获系统,捕获压缩空气流的影响下的物体。建立近期型号动态神经辐射区域的进步,我们重建了物体和相应的变形字段。我们建议使用可差异的基于粒子的模拟器来使用这些变形字段来查找代表性的材料参数,这使我们能够运行新的模拟。为了渲染模拟对象,我们设计了一种用神经辐射场将模拟结果集成的方法。结果方法适用于各种场景:它可以处理由非均匀材料组成的物体,具有非常不同的形状,它可以模拟与其他虚拟对象的交互。我们在各种力字段下使用12个对象的新收集的数据集介绍了我们的结果,这将与社区共享。
translated by 谷歌翻译
在目前的生物和医学研究中,统计形状建模(SSM)提供了解剖/形态学表征的基本框架。这种分析通常通过识别群体样本中发现的相对少量的几何一致性特征来驱动。这些特征随后可以提供有关人口形状变化的信息。密集的对应模型可以提供易于计算,并在后面减小时产生可解释的低维形状描述符。然而,用于获得这种对应关系的自动方法通常需要图像分割,然后是显着的预处理,这在计算和人力资源方面都是征税。在许多情况下,分段和后续处理需要手动指导和解剖学特定域专业知识。本文提出了一种自我监督的深度学习方法,用于发现可以直接用作形状描述符的图像中的地标进行分析。我们使用地标驱动的图像登记作为主要任务,以强制神经网络发现井注册图像的地标。我们还提出了一个正则化术语,允许对神经网络的稳健优化进行稳健优化,并确保地标均匀跨越图像域。所提出的方法避免分割和预处理,并直接使用仅2D或3D图像产生可用的形状描述符。此外,我们还提出了在训练损失函数上提出了两个变体,允许将现有的形状信息集成到模型中。我们在几个2D和3D数据集上应用此框架以获取其形状描述符,并分析其实用程序以获取各种应用程序。
translated by 谷歌翻译
This technical report presents GPS++, the first-place solution to the Open Graph Benchmark Large-Scale Challenge (OGB-LSC 2022) for the PCQM4Mv2 molecular property prediction task. Our approach implements several key principles from the prior literature. At its core our GPS++ method is a hybrid MPNN/Transformer model that incorporates 3D atom positions and an auxiliary denoising task. The effectiveness of GPS++ is demonstrated by achieving 0.0719 mean absolute error on the independent test-challenge PCQM4Mv2 split. Thanks to Graphcore IPU acceleration, GPS++ scales to deep architectures (16 layers), training at 3 minutes per epoch, and large ensemble (112 models), completing the final predictions in 1 hour 32 minutes, well under the 4 hour inference budget allocated. Our implementation is publicly available at: https://github.com/graphcore/ogb-lsc-pcqm4mv2.
translated by 谷歌翻译
最近,盲目的语音分离(BSS)和目标语音提取(TSE)的表现已取得了长足的进步。但是,大多数作品都专注于相对控制的条件,例如阅读语音。在更现实的情况下,性能可能会降低。引起这种降解的因素之一可能是固有的说话者变异性,例如情绪,通常在现实的语音中发生。在本文中,我们研究了情绪对TSE和BSS的影响。我们创建了一个新的测试数据集,以评估TSE和BSS。该数据集结合了Librispeech和Ryerson Audio-Visual Visual Espections and Song(Ravdess)。通过受控的实验,我们可以分析不同情绪对BSS和TSE性能的影响。我们观察到BSS对情绪相对强大,而TSE需要识别和提取目标说话者的语音,对情绪更为敏感。在比较演讲者验证实验中,我们表明,在处理情感语音时,确定目标扬声器可能特别具有挑战性。使用我们的发现,我们概述了可能改善BSS和TSE系统对情感语音的鲁棒性的潜在方向。
translated by 谷歌翻译
对机器人在现实世界中的准确控制需要一个控制系统,该控制系统能够考虑机器人与环境的动力学相互作用。在高速度下,机器人对这些运动动力学相互作用的运动依赖性变得更加明显,使高速,准确的机器人控制一个具有挑战性的问题。先前的工作表明,学习机器人的逆动力动力学(IKD)可能有助于高速机器人控制。但是,学习的逆运动动力学模型只能应用于有限的控制问题类别,不同的控制问题需要学习新的IKD模型。在这项工作中,我们提出了一种新的公式,用于精确,高速机器人控制,该配方利用了学习的前进运动动力学(FKD)模型和非线性最小二乘优化。从公式的本质上讲,这种方法可以扩展到各种各样的控制问题,而无需重新培训新模型。我们证明了这种方法在高速上准确控制刻度的十分之一机器人车的能力,并显示出比基线相比的结果。
translated by 谷歌翻译
基于1-HOP邻居之间的消息传递(MP)范式交换信息的图形神经网络(GNN),以在每一层构建节点表示。原则上,此类网络无法捕获在图形上学习给定任务的可能或必需的远程交互(LRI)。最近,人们对基于变压器的图的开发产生了越来越多的兴趣,这些方法可以考虑超出原始稀疏结构以外的完整节点连接,从而实现了LRI的建模。但是,仅依靠1跳消息传递的MP-gnn与位置特征表示形式结合使用时通常在几个现有的图形基准中表现得更好,因此,限制了Transferter类似体系结构的感知效用和排名。在这里,我们介绍了5个图形学习数据集的远程图基准(LRGB):Pascalvoc-SP,Coco-SP,PCQM-Contact,Peptides-Func和肽结构,可以说需要LRI推理以在给定的任务中实现强大的性能。我们基准测试基线GNN和Graph Transformer网络,以验证捕获长期依赖性的模型在这些任务上的性能明显更好。因此,这些数据集适用于旨在捕获LRI的MP-GNN和Graph Transformer架构的基准测试和探索。
translated by 谷歌翻译
图形神经网络(GNNS)通过考虑其内在的几何形状来扩展神经网络的成功到图形结构化数据。尽管根据图表学习基准的集合,已经对开发具有卓越性能的GNN模型进行了广泛的研究,但目前尚不清楚其探测给定模型的哪些方面。例如,他们在多大程度上测试模型利用图形结构与节点特征的能力?在这里,我们开发了一种原则性的方法来根据$ \ textit {敏感性配置文件} $进行基准测试数据集,该方法基于由于图形扰动的集合而导致的GNN性能变化了多少。我们的数据驱动分析提供了对GNN利用哪些基准测试数据特性的更深入的了解。因此,我们的分类法可以帮助选择和开发适当的图基准测试,并更好地评估未来的GNN方法。最后,我们在$ \ texttt {gtaxogym} $软件包中的方法和实现可扩展到多个图形预测任务类型和未来数据集。
translated by 谷歌翻译
我们提出了一个食谱,讲述了如何建立具有线性复杂性和最先进的结果的一般,功能可扩展的(GPS)图形变压器,并在各种基准测试基准上。 Graph Transformers(GTS)在图形表示学习领域中获得了多种近期出版物的知名度,但它们对构成良好的位置或结构编码的共同基础以及与众不同的区别。在本文中,我们总结了具有更清晰的定义的不同类型的编码,并将其分类为$ \ textit {local} $,$ \ textit {global} $或$ \ textit {fextit {ferseal} $。此外,GTS仍被限制在具有数百个节点的小图上,我们提出了第一个具有复杂性线性的体系结构对节点和边缘$ O(n+e)$的数量,通过将局部实质汇总从完全 - 连接的变压器。我们认为,这种解耦并不会对表现性产生负面影响,而我们的体系结构是图形的通用函数近似器。我们的GPS配方包括选择3种主要成分:(i)位置/结构编码,(ii)局部消息通讯机制和(iii)全局注意机制。我们构建和开源一个模块化框架$ \ textit {graphgps} $,该{GraphGps} $支持多种类型的编码,并且在小图和大图中提供效率和可扩展性。我们在11个基准测试上测试了我们的体系结构,并对所有这些基准显示出非常具竞争力的结果,展示了由模块化和不同策略组合获得的经验益处。
translated by 谷歌翻译
高速偏离地面车辆的高速偏离道路导航的主要挑战之一是,车辆地形相互作用的动力动力学会根据地形而大不相同。以前解决这一挑战的方法已经考虑学习一种基于车辆的惯性信息,以感知运动动力学相互作用。在本文中,我们假设,除了过去的惯性信息外,还必须预料到将来,还必须预料到将来,还必须预料到将来,还必须预料到将来,还必须预料到将来,还必须预料到将来的动力学相互作用,以实现精确的高速越野导航。为此,我们引入了视觉惯性逆动力动力学(VI-IKD),这是一种新型的基于学习的IKD模型,除了过去的惯性信息外,还基于从机器人前面的地形贴片的视觉信息进行条件,使其能够预期会素动力学相互作用在将来。我们在室内和室外环境中验证了VI-IKD在实验上进行实验性高速越野导航的有效性ART方法,VI-IKD可以以高达3.5 m/s的速度在各种不同的地形上更准确,更强大的越野导航。
translated by 谷歌翻译
通过未计算的数据情况和缺乏本领域缺乏标准基准的动机,我们补充了我们以前的努力,并提出了一个专为培训和评估文本无关的多通道扬声器验证系统的全面语料库。还可以容易地用于DERE失去,去噪和语音增强的实验。我们通过利用VOXECEB数据集的清洁部分顶部的数据仿真来解决缺乏多通道训练数据的缺乏问题。开发和评估试验基于复杂的传统的声音,这些声音在复杂的环境环境(声音)语料库中,我们修改以提供多渠道试验。我们发布从公共来源创建数据集的完整食谱作为Multisv语料库,我们提供了两种多通道扬声器验证系统,其中两个多通道扬声器验证系统,基于神经网络的波束成形,基于预测理想二进制掩码或更新的CONV-TASNet更新。
translated by 谷歌翻译